Análisis de los datos paquete Boston

A continuación se muestra el código utilizado así como una descripcion de las figuras las cuales ademas se encuentran en la app de shiny.

Gráfico 3D entre lsat - rm - medv

Se observa una tendencia decreciente del valor de las viviendas (medv) a medida que aumenta lstat, indicando que los barrios con mayor pobreza tienden a tener viviendas más baratas. Sin embargo en la figura también es posible observar un mayor número de habitaciones (rm) asociado con valores más altos de medv. Esto puede indicarnos que los barrios con mejores condiciones habitacionales y menor pobreza tienen precios de vivienda más elevados.

Instalación de librerías y carga de datos

library(ggplot2)
library(plotly)
library(ggplot2)
library(dplyr)
library(MASS)

data("Boston")
plot_ly(Boston, x = ~lstat, y = ~rm, z = ~medv,
        type = "scatter3d", mode = "markers",
        marker = list(size = 3, color = ~medv, colorscale = "Viridis", showscale = TRUE)) %>%
  layout(title = "Dispersión 3D: lstat, rm y medv",
         scene = list(xaxis = list(title = "lstat"),
                      yaxis = list(title = "rm"),
                      zaxis = list(title = "medv")))

Histograma con curva de densidad para la variable lstat

El histograma generado muestra una distribución asimétrica positiva (sesgo a la derecha), donde la mayoría de barrios tienen bajos valores de lstat (menos del 10% de población con bajo estatus), mientras que pocos presentan altos valores. La curva de densidad suavizada ayuda a ver que hay una concentración densa en valores bajos. Esta información resulta importante debido a que lstat está negativamente correlacionado con el valor de las viviendas como se pudo apreciar en la figura previa.

p_hist <- ggplot(Boston, aes(x = lstat)) +
  geom_histogram(aes(y = ..density..), fill = "skyblue", color = "black", bins = 30) +
  geom_density(color = "red", size = 1) +
  labs(title = "Histograma de lstat con curva de densidad",
       x = "lstat (bajo estatus socioeconómico)",
       y = "Densidad") +
  theme_minimal()

ggplotly(p_hist)

Gráfico de dispersión 2D entre lstat - medv

En el gráfico de dispersión se puede observar una fuerte relación negativa entre lstat y medv, es decir, a mayor pobreza, menor valor de las viviendas. La curva LOESS refuerza esta observación con una pendiente decreciente. Al distinguir por chas, se nota que los barrios cerca del río Charles (chas = 1, como se puede apreciar en la app de shiny) tienden a tener valores de vivienda más altos, lo cual podría estar asociado al valor agregado de estar ubicado cerca del río. Lo cual podría además mostrar que estár cerca del río podría ser considerado como un factor geográfico relevante en el mercado inmobiliario de la ciudad de Boston.``

Boston$chas <- factor(Boston$chas, labels = c("No colinda con río", "Colinda con río"))

p_disp <- ggplot(Boston, aes(x = lstat, y = medv, color = chas)) +
  geom_point(alpha = 0.7) +
  geom_smooth(method = "loess", se = FALSE) +
  labs(title = "Dispersión: lstat vs medv",
       x = "lstat (bajo estatus)",
       y = "medv (valor medio de la vivienda)",
       color = "Río Charles") +
  theme_minimal()

ggplotly(p_disp)